КЛУБ СТОКОВЫХ ФОТОГРАФОВ, ИЛЛЮСТРАТОРОВ, ВИДЕОГРАФОВ и ИИ-ШНИКОВ

Текущее время: 20 07 2025, 12:22

Часовой пояс: UTC + 2 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 90 ]  На страницу Пред.  1, 2, 3, 4, 5, 6  След.
Автор Сообщение
 Заголовок сообщения:
СообщениеДобавлено: 09 11 2007, 22:02 
Не в сети
Аватара пользователя

Зарегистрирован: 26 10 2006, 11:57
Сообщения: 616
Откуда: Питер
lahtak писал(а):
Я макросы лет 5 не писал , но сделаю такой считыватель на другом движке. Только кажись оно редко обновляется . Тут интересно проанализировать устойчивые словосочетания и их повторяемость

Да, обновляется редко - сейчас посмотрю сколько. Ну и пускай. Будем загружать через равные промежутки времени - будет репрезентативная выборка.

Обновляется раз в десять минут, выдает 21 словосочетание. Итого 3000 словосочетаний в день, больше 6000 слов. Немного, но хватит.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 09 11 2007, 23:11 
Не в сети
Аватара пользователя

Зарегистрирован: 14 08 2007, 11:05
Сообщения: 1913
Собирать статистику по "Recent Searches" -- не оченеь интересно. По моим наблюдениям там выводятся только те запросы, для которых мало или совсем нет изображений в базе дримса.

Больший интерес представляеет статистика популярных слов, которая представлена на другой странице.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 09 11 2007, 23:22 
Не в сети
Аватара пользователя

Зарегистрирован: 15 10 2006, 18:15
Сообщения: 4672
Откуда: Москва
Ребят, поройтесь в форуме, кажется, кто-то уже выкладывал базу поисковых запросов, и именно на Дримсе.. оклоло года назад.... Дежа Вю у меня :D


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 10 11 2007, 00:33 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
lvinst писал(а):
Собирать статистику по "Recent Searches" -- не оченеь интересно. По моим наблюдениям там выводятся только те запросы, для которых мало или совсем нет изображений в базе дримса.

Больший интерес представляеет статистика популярных слов, которая представлена на другой странице.

Специально посмотрел , мягко говоря это не так.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 10 11 2007, 00:38 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
Zoom писал(а):
Ребят, поройтесь в форуме, кажется, кто-то уже выкладывал базу поисковых запросов, и именно на Дримсе.. оклоло года назад.... Дежа Вю у меня :D

Интересно текущее время , пасха от рождества отличается довольно сильно. Потом у меня давно была задумка сделать словарь перекрестных ссылок по ключевым словам. На выходных внук и футбол, с понедельника возьмусь :)


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 10 11 2007, 00:46 
Не в сети
Аватара пользователя

Зарегистрирован: 06 02 2006, 12:02
Сообщения: 2550
Откуда: Волгодонск
Как-то начал собирать на Лаки, собрал 6.5 тыс запросов и бросил, вот наиболее популярные запросы из моей выборки:

31 female
23 young
23 girl
22 cute
21 background
19 woman
18 women
18 pretty
17 beautiful
16 white
15 silhouette
14 teen
14 illustration
14 beauty
14 adult
14 abstract
13 natural
13 business
13 art
12 wallpaper
12 summer
12 red
12 model
12 flowers
12 face
12 black
12 backgrounds
11 person
11 isolated
11 hair
11 green
11 girls
11 blue
11 beach
10 stockings
10 redhead
10 legs
10 happy
10 fashion
10 color
10 bedroom
9 smile
9 sky
9 pattern
9 nature
9 lady
9 food
9 eyes
9 design
9 couple
9 brunette
9 blonde
9 blond
8 water
8 vintage
8 texture
8 teenager
8 pose
8 photograph
8 people
8 light
8 landscape
8 healthy
8 glamour
8 forest
8 children
8 bright
8 boy
8 artistic
7 youth
7 yellow
7 winter
7 tree
7 toes
7 striptease
7 portrait
7 paper
7 newest
7 male
7 love
7 lips
7 fun
7 dog
7 college
7 child
7 alluring
6 wedding
6 travel
6 sun
6 sign
6 shadow
6 school
6 rose
6 plant
6 old
6 health
6 guitar
6 glamor
6 foot
6 dress
6 detail
6 dark
6 caucasian
6 border
6 boots
6 asian
6 architecture
6 antique


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 10 11 2007, 01:10 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
постараюсь за выходные сделать, что бы сервер автономно собирал статистику с дримса, смысл будет потипу сервиса подбора ключей, который на miсrostock.ru, тока статистика будет собираться сервером, а пользователю будет выдаваться текущие значения из собраной базы, отсортированые по частоте упоминания... пока сделаю, что бы просто собирало, потом можно будет доделать, в соответствии с пожеланиями, разные сортировки и, впринципе, добавить другие банки....


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 10 11 2007, 02:27 
Не в сети
Аватара пользователя

Зарегистрирован: 01 06 2006, 15:53
Сообщения: 298
Откуда: Санкт-Петербург
shalex84 писал(а):
постараюсь за выходные сделать, что бы сервер автономно собирал статистику с дримса


хорошая идея... было бы клево если б можно было посмотреть графики изменения популярности наиболее употребимых слов, чтобы определить момент, когда именно начинается повышение интереса к тем или иным словам (т.е. когда начинать грузить пасху или весну, например :)


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 10 11 2007, 02:50 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
WildCat писал(а):
shalex84 писал(а):
постараюсь за выходные сделать, что бы сервер автономно собирал статистику с дримса


хорошая идея... было бы клево если б можно было посмотреть графики изменения популярности наиболее употребимых слов, чтобы определить момент, когда именно начинается повышение интереса к тем или иным словам (т.е. когда начинать грузить пасху или весну, например :)

впринципе, нет ничего невозможного, главное время и желание ;)
с первым туговато, второе пока есть :)


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 11 11 2007, 04:14 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
WildCat писал(а):
хорошая идея... было бы клево если б можно было посмотреть графики изменения популярности наиболее употребимых слов, чтобы определить момент, когда именно начинается повышение интереса к тем или иным словам (т.е. когда начинать грузить пасху или весну, например :)


а в каком виде это преподнести, точнее даже не вид, а "цена деления", тоесть, статистика слов по месяцам, неделям, дням?
как мне кажется, всплесков резких не будет, наверное хватит и значений за месяц

кто кроме дримса еще "последнии" слова показывает?
просто если с разных банков собирать, то процент "весомых" будет лучше выделятся....


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 11 11 2007, 18:54 
Не в сети
Аватара пользователя

Зарегистрирован: 01 06 2006, 15:53
Сообщения: 298
Откуда: Санкт-Петербург
shalex84 писал(а):
а в каком виде это преподнести, точнее даже не вид, а "цена деления", тоесть, статистика слов по месяцам, неделям, дням?


неделя будет нормально. месяц все-таки многовато, а день - нет смысла, по-моему.

эту статистику можно попробовать скомбинировать с тем что выдает шаттер и айс в недельных топах. правда это чуть посложнее (надо будет вытаскивать ключевые из каждой картинки попавшей в топы), но интереснее...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 12 11 2007, 04:23 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
во вторник или среду запущу, пусть набивает базу, раз никто не проявил интреса, значит будет база по неделям как предложил WildCat. Пока проблемы с хостингом, бесплатный не подходит по ряду причин, в том числе я не нашел ни одного который мог бы по расписанию запускать php скрипт. Сервер станет на 100% полезным только через год работы. Первый год можно будет угадывать по нарастающим всплескам. Поьлзователям будет доступен чуть позже.
Цитата:
эту статистику можно попробовать скомбинировать с тем что выдает шаттер и айс в недельных топах. правда это чуть посложнее (надо будет вытаскивать ключевые из каждой картинки попавшей в топы)

сложность только в том, что это первый мой проект на php+SQL
раньше писал тока на С++/немного С#.
это тоже сделаю, но чуть позже.

пока могу сказать, что основные хиты: gerl, boy, men, sexy и с ними связаное....


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 12 11 2007, 11:48 
Не в сети

Зарегистрирован: 07 06 2007, 13:18
Сообщения: 83
Откуда: Moscow
На досуге тут подумал о возможном алгоритме сбора и обработки статистики по последним запросам.

1) Некий робот раз в n (10?) минут считывает последние запросы с Dreamstime и сохраняет их в базу. Причём, сохраняется дата и время запроса + целиком запросы (словосочетания), без дробления на слова.

2) Далее, конечный пользователь где-то вводит 2-3 "основных" (т.е. общих слов, таких как beach, sea, summer и т.д.) ключевых слова и определяет период, за который он хотел бы учитывать статистику (вплоть до гибкого поиска с указанием конкретного периода дат).

3) Некая программа дальше лезет в базу и выбирает все запросы за указанный период времени, в которых встречаются указанные ключевые слова. В качестве результатов, получаем некий массив, где кроме указанных основных слов, отбираются так же все слова, используемые вместе с нашими в одном запросе. При этом рассчитываются два рейтинга:

- "Абсолютный" рейтинг каждого слова, т.е. количество упоминаний данного слова (не обязательно вместе с нашими основными словами, а вообще в любых запросах) разделенное на общее количество запросов за указаннный период времени (т.е. рейтинг будет в пределах 0<=r<=1)

- "Относительный" рейтинг каждого слова, т.е частота его упоминания именно в сочетании с указанными основными словами. Рассчитывается как частота упоминания каждого слова вместе с нашими основными словами, разделенное на общее количество запросов за период (т.е. относительный рейтинг будет тоже в пределах 0<=r<=1, но в большинстве случаев будет меньше абсолютного рейтинга).

Иными словами, рейтинг каждый раз считается динамически, в зависимости от условий поиска (указанных основных слов и периода), что позволит получить не некий абстрактный TOP-100, а вполне конкретную подборку наиболее употребимых слов и словосочетаний на заданную тему.

4) Далее пользователю выдаётся список слов с их рейтингами, отсортированных по выбору пользователя либо по абсолютному рейтингу, либо по относительному. Пользователь уже, по своему усмотрению добавляет или не добавляет ключевые слова к своему изображению (понятно, что не всегда в результатах будут слова, подходящие к конкретному изображению), но идя сверху вниз по списку, у нас будет возможность отбирать наиболее популярные слова для своих фото.


Мне кажется, что именно относительный рейтинг будет наиболее полезным, т.к. он должен сильно повысить вероятность попадания в результаты поиска по запросам, состоящим из нескольких слов, к-е, в свою очередь, возвращают гораздо меньше результатов. Вот...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 13 11 2007, 21:27 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
2 iNNOCENt
Цитата:
1) Некий робот раз в n (10?) минут считывает последние запросы с Dreamstime и сохраняет их в базу. Причём, сохраняется дата и время запроса + целиком запросы (словосочетания), без дробления на слова.

ладно еще дата, а вот что вам даст время запроса, помойму это будет бесполезный параметр. Кроме того, время и дата запроса могут очень сильно разростить базу до неимоверных размеров, что приведет сервис к очень медленной работе. Также время запроса скажет только о том, когда тот или иной дизайнер(и тд) искал карточку, на пример, утром, до обеда или после...
Мне кажется, и не тоьлко мне, что оптимально использовать статистику слова за неделю. сразу будут видны всплески и падения таких слов в запросах.
Словосочетания добавлю.

Цитата:
2) Далее, конечный пользователь где-то вводит 2-3 "основных" (т.е. общих слов, таких как beach, sea, summer и т.д.) ключевых слова и определяет период, за который он хотел бы учитывать статистику (вплоть до гибкого поиска с указанием конкретного периода дат).

С этим проблем не будет, надо только определится с точностью статистики (день или неделя)....

А зачем делить на общее количество запросов, ведь количество упоминаний данного запроса за период имеет тот же смысл, чем больше упоминаний, тем веше рейтинг. Ведь во всех случаях будет формироваться топ за промежуток времени, деление ничего не даст.
Какая разница, если вам выдаст что слово girl(например) упоминалось за неделю 235 раз, а запросов было 10 345? или вам выдаст рейтинг слова girl 0,0227???
Кроме этого, дримс выдает не все слова, а только либо первые либо последние за прошедшие 10 мин. Еще заметил, что ночью он пару раз обновлял статистику раз в 15 и раз в 20 минут... вроде...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 00:53 
Не в сети
Аватара пользователя

Зарегистрирован: 01 06 2006, 15:53
Сообщения: 298
Откуда: Санкт-Петербург
shalex84 писал(а):
пока могу сказать, что основные хиты: gerl, boy, men, sexy и с ними связаное....


вот именно поэтому надо привязывать статистику к топу продаж хоть каким-то боком, иначе в результате получится список ключевых слов, наиболее популярных среди... малолетних дрочеров, шарящихся по дриму в поисках ню-шек (и разумеется нифига не покупающих) :)

интересно не просто запросы, а связка запрос-покупка, т.е. результативные запросы или же, наоборот, запросы абсолютно нерезультативные, т.е. повторяющиеся запросы того, чего в базе пока мало или нет вообще.

кста, кол-во фоток на каждый кейворд вроде как тоже можно вытащить на каком-то из стоков (фотолия? дрим?), точно помню что видел эти цифры в момент ввода слов в поле поиска в виде выпадающей подсказки. это тоже крайне важная инфа, и если ее вытащить и скрестить результаты с частотным словарем английского языка, то - уверен - нас ждут очень интересные результаты :)

понятное дело, сочетания слов в запросе тоже актуально.

в общем, для первого проекта задачка весьма серьезная, но при этом чертовски интересная и весьма перспективная - эдакий реалтайм-анализатор тенденций на рынке с возможностью предсказания :)


Вернуться к началу
 Профиль  
Ответить с цитатой  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 90 ]  На страницу Пред.  1, 2, 3, 4, 5, 6  След.

Часовой пояс: UTC + 2 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения

Найти:
Перейти:  







???????@Mail.ru



Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB